目的:尽管机器学习模型有潜力,但缺乏普遍性阻碍了他们在临床实践中的广泛采用。我们研究了三个方法论陷阱:(1)违反独立性假设,(2)具有不适当的性能指标或基线进行比较的模型评估,以及(3)批次效应。材料和方法:使用几个回顾性数据集,我们在有或没有陷阱的情况下实现机器学习模型,以定量说明这些陷阱对模型通用性的影响。结果:更具体地说,违反独立假设,在将数据分别分为火车,验证和测试集中,在预测局部恢复和预测局部恢复和表面上,将数据分别划分为火车,验证和测试集,在将数据分别分为火车,验证和测试集中,在F1分别误导和表面上获得误解和表面收益,从而违反独立假设。预测头颈癌的3年总生存期以及46.0%的总体生存率为5.0%,从而区分肺癌的组织病理学模式。此外,在培训,验证和测试集中为受试者分发数据点导致F1分数的表面增长21.8%。此外,我们展示了绩效指标选择和基线的重要性。在存在批处理效应的情况下,为肺炎检测而建立的模型导致F1得分为98.7%。但是,当将同一模型应用于正常患者的新数据集时,仅正确地将3.86%的样品分类。结论:这些方法上的陷阱无法使用内部模型评估来捕获,这种模型的不准确预测可能会导致错误的结论和解释。因此,对于开发可推广的模型是必要的,理解和避免这些陷阱是必要的。
translated by 谷歌翻译
Intelligent agents have great potential as facilitators of group conversation among older adults. However, little is known about how to design agents for this purpose and user group, especially in terms of agent embodiment. To this end, we conducted a mixed methods study of older adults' reactions to voice and body in a group conversation facilitation agent. Two agent forms with the same underlying artificial intelligence (AI) and voice system were compared: a humanoid robot and a voice assistant. One preliminary study (total n=24) and one experimental study comparing voice and body morphologies (n=36) were conducted with older adults and an experienced human facilitator. Findings revealed that the artificiality of the agent, regardless of its form, was beneficial for the socially uncomfortable task of conversation facilitation. Even so, talkative personality types had a poorer experience with the "bodied" robot version. Design implications and supplementary reactions, especially to agent voice, are also discussed.
translated by 谷歌翻译
Gender/ing guides how we view ourselves, the world around us, and each other--including non-humans. Critical voices have raised the alarm about stereotyped gendering in the design of socially embodied artificial agents like voice assistants, conversational agents, and robots. Yet, little is known about how this plays out in research and to what extent. As a first step, we critically reviewed the case of Pepper, a gender-ambiguous humanoid robot. We conducted a systematic review (n=75) involving meta-synthesis and content analysis, examining how participants and researchers gendered Pepper through stated and unstated signifiers and pronoun usage. We found that ascriptions of Pepper's gender were inconsistent, limited, and at times discordant, with little evidence of conscious gendering and some indication of researcher influence on participant gendering. We offer six challenges driving the state of affairs and a practical framework coupled with a critical checklist for centering gender in research on artificial agents.
translated by 谷歌翻译
We study representation learning for efficient imitation learning over linear systems. In particular, we consider a setting where learning is split into two phases: (a) a pre-training step where a shared $k$-dimensional representation is learned from $H$ source policies, and (b) a target policy fine-tuning step where the learned representation is used to parameterize the policy class. We find that the imitation gap over trajectories generated by the learned target policy is bounded by $\tilde{O}\left( \frac{k n_x}{HN_{\mathrm{shared}}} + \frac{k n_u}{N_{\mathrm{target}}}\right)$, where $n_x > k$ is the state dimension, $n_u$ is the input dimension, $N_{\mathrm{shared}}$ denotes the total amount of data collected for each policy during representation learning, and $N_{\mathrm{target}}$ is the amount of target task data. This result formalizes the intuition that aggregating data across related tasks to learn a representation can significantly improve the sample efficiency of learning a target task. The trends suggested by this bound are corroborated in simulation.
translated by 谷歌翻译
单词错误率(WER)是用于评估自动语音识别(ASR)模型质量的主要度量。已经表明,与典型的英语说话者相比,ASR模型的语音障碍者的扬声器往往更高。在如此高的错误率下,很难确定模型是否可以很有用。这项研究调查了BertScore的使用,BertScore是文本生成的评估指标,以提供对ASR模型质量和实用性的更有信息度量。将Bertscore和WER与语言病理学家手动注释以进行错误类型和评估手动注释的预测错误。发现Bertscore与人类的误差类型和评估评估更相关。在保留含义的拼字法变化(收缩和归一化误差)上,Bertscore特别强大。此外,使用顺序逻辑回归和Akaike的信息标准(AIC)测量,Bertscore比WER更好地评估了错误评估。总体而言,我们的发现表明,从实际角度评估ASR模型性能时,Bertscore可以补充,尤其是对于可访问性应用程序,即使模型的精度也比典型语音较低的模型也很有用。
translated by 谷歌翻译
农业面临着劳动危机,导致人们对小型,伪造机器人(AGBOTS)的兴趣增加,这些机器人可以执行精确的,有针对性的行动(例如,农作物侦察,除草,受精),同时由人类操作员进行监督。但是,农民不一定是机器人技术方面的专家,也不会采用增加其工作量的技术或不提供立即回报的技术。在这项工作中,我们探讨了远程人类操作员与多个Agbot之间进行通信的方法,并研究音频通信对操作员的偏好和生产率的影响。我们开发了一个模拟平台,在该平台中,AGBOT在一个字段中部署,随机遇到故障,并呼吁操作员寻求帮助。随着AGBOTS报告错误,测试了各种音频通信机制,以传达哪种机器人失败以及发生了什么类型的故障。人类的任务是在完成次要任务时口头诊断失败。进行了一项用户研究,以测试三种音频通信方法:耳塞,单短语命令和完整的句子通信。每个参与者都完成了一项调查,以确定他们的偏好和每种方法的总体效率。我们的结果表明,使用单个短语的系统是参与者最积极的看法,可以使人更有效地完成次要任务。该代码可在以下网址获得:https://github.com/akamboj2/agbot-sim。
translated by 谷歌翻译
由于大规模数据集的可用性,通常在特定位置和良好的天气条件下收集的大规模数据集,近年来,自动驾驶汽车的感知进展已加速。然而,为了达到高安全要求,这些感知系统必须在包括雪和雨在内的各种天气条件下进行稳健运行。在本文中,我们提出了一个新数据集,以通过新颖的数据收集过程启用强大的自动驾驶 - 在不同场景(Urban,Highway,乡村,校园),天气,雪,雨,阳光下,沿着15公里的路线反复记录数据),时间(白天/晚上)以及交通状况(行人,骑自行车的人和汽车)。该数据集包括来自摄像机和激光雷达传感器的图像和点云,以及高精度GPS/ins以在跨路线上建立对应关系。该数据集包括使用Amodal掩码捕获部分遮挡和3D边界框的道路和对象注释。我们通过分析基准在道路和对象,深度估计和3D对象检测中的性能来证明该数据集的独特性。重复的路线为对象发现,持续学习和异常检测打开了新的研究方向。链接到ITHACA365:https://ithaca365.mae.cornell.edu/
translated by 谷歌翻译
在无人车的领域,自主机器人群体承诺将提高效率和集体自主权。这些群体将来将如何运作,以及尚未充分定义这些沟通要求和运营界限。与11位专业的无人车运营商和设计师进行了研讨会,目的是确定用于开发和测试机器人群的用例。专家定义了三个方案,然后编译以生产一个用例,概述与高度自主群合作时的情况,目标,代理,通信要求和操作阶段。我们的编译用例均适用于研究人员,设计师和制造商,以测试和量身定制其设计管道,以适应人类互动的一些关键问题。应用程序的示例包括告知模拟开发,构成进一步设计研讨会的基础,并确定人类运营商与群体之间可能出现的信任问题。
translated by 谷歌翻译
在训练数据的分布中评估时,学到的模型和政策可以有效地概括,但可以在分布输入输入的情况下产生不可预测且错误的输出。为了避免在部署基于学习的控制算法时分配变化,我们寻求一种机制将代理商限制为类似于受过训练的国家和行动的机制。在控制理论中,Lyapunov稳定性和控制不变的集合使我们能够保证稳定系统周围系统的控制器,而在机器学习中,密度模型使我们能够估算培训数据分布。我们可以将这两个概念结合起来,产生基于学习的控制算法,这些算法仅使用分配动作将系统限制为分布状态?在这项工作中,我们建议通过结合Lyapunov稳定性和密度估计的概念来做到这一点,引入Lyapunov密度模型:控制Lyapunov函数和密度模型的概括,这些函数和密度模型可以保证代理商在其整个轨迹上保持分布的能力。
translated by 谷歌翻译
我们通过与与前面令牌的局部相似度,通过调节从大语料库检索的文档块来增强自动回归语言模型。尽管使用25美元\时分,我们的检索增强型变压器(RetroCro)的检索增强型变压器(RetroCr)对GPT-3和侏罗纪-1获得了可比性的性能。微调后,复古表演转换为下游知识密集型任务,如问题应答。复古结合了冷冻BERT猎犬,一种可微分的编码器和块状的横向机制,以预测基于数量级的令牌,而不是训练期间通常消耗的数量。我们通常从头开始训练复古,还可以快速改造预先接受的变压器,通过检索,仍然达到良好的性能。我们的工作通过以前所未有的规模开辟了通过显式内存改进语言模型的新途径。
translated by 谷歌翻译